查看原文
其他

技术赋能,构建智能化数据库平台——“天闻”系统融合创新之路

The following article is from 新闻战线 Author 梁 辉


大数据与人工智能时代来临,新闻采编与传播领域正处于前所未有的变革期。传统的新闻采编流程、生产模式以及传播形态正被加速打破,全新的采编与传播模式已经形成并开始确立主导地位。

拥有90年厚重历史的参考消息,本身就是我党新闻发展史上技术赋能的产物——随着电报这一传播新技术应运而生。因此,参考消息并不缺乏技术创新的基因。

2019年开通上线的“天闻”系统,由爬虫技术抓取、人工智能翻译以及大数据分析与可视化等技术手段融合发展而成,是参考消息报社在人工智能时代守正创新、技术赋能的重大融合创新,被业界誉为“中国传统报业在大数据与人工智能时代的一次成功突围”。2019年,“天闻”系统荣获新华社年度创新大奖;2021年,入选国家新闻出版署评选的“中国报业深度融合发展创新案例”。




目前,“天闻”系统不仅为参考消息报社与新华社采编部门提供助力与支撑,还为国家级研究机构、知名高校以及中央部委机关、大型国有企事业单位等提供全面的综合性国际信息服务,发挥着大数据时代的国际信息“大参考”功能。

人机结合,实现“把地球看起来”

人工智能技术正广泛应用于信息生产、传播以及分析研究领域,并展现出巨大前景。2021年10月,“天闻”系统再次进行重大技术升级,初步形成了“全球舆情信息监测网+海外开源信息大数据库+智库产品”的内容结构板块。

“天闻”系统以中外文双语实时、分类、准确展现上千个信源的海量信息,用户可以通过互联网用中文阅读海外主流媒体、智库与国际组织等机构实时发布的各类信息以及上千名海外重要人士的社交媒体内容。目前,“天闻”系统已实现数据的分钟级抓取,每天入库的有效稿件达3万条以上,每日入库中文稿件总字数超过3000万字,形成了一个独具参考消息特色的综合性国际信息大数据库。

“天闻”系统之所以强大,是因为内嵌有参考消息报社自主研发的人工智能翻译机器“译神”。早在数年前,参考消息报社就敏锐洞察到人工智能技术在翻译领域的应用前景,利用数十年来积累的独家中外文语料成功培训出“译神”人工智能翻译机器。“译神”的翻译效率十分惊人,只需短短数十秒就能将一篇长达三四十万字的英文报告原格式翻译成中文,且“译神”对国际新闻信息翻译的准确率远高于国内外市场同类产品。

在“天闻”系统的助力下,参考消息报社国际信息选报业务如虎添翼,以人机结合的方式,真正建成了全球舆情信息监测平台,很大程度上实现了“把地球看起来”。

众所周知,参考消息报社拥有中央新闻单位规模最大、实力最强的外语翻译团体,专业选报与翻译人员多达150名左右,其中很多人拥有高级职称且驻外经验丰富,他们是新华社《参考资料》《参考要闻》等国际参考报道的主要生产团队。这一国内最豪华的翻译团队才是真正的“译神”。目前他们每工作日为“天闻”系统提供约50条翻译稿件,年供稿篇幅超过800万字,所译信源覆盖英语、俄语、法语、德语、日语、西班牙语以及葡萄牙语等七大语种。

翻译专家团队的加入,大幅提高了“天闻”系统数据库内容的准确性、全面性与权威性。这些由专家团队精选精译精编的文章,在“天闻”系统内以网页的形式呈现,并分属于时政、军事、经济、科技以及社会文化等不同频道,构成了“天闻”系统内的又一重要产品——国际参考信息专页。

依托数据库,持续推出高附加值产品

在“天闻”系统产品链中,最具拓展空间的还是“海外开源信息数据库”。系统在实时展现海外舆情信息动向全貌的同时,源源不断的入库稿件形成了一个海量的国际信息数据库。

为有效利用数据库的价值,“天闻”系统技术团队设计了数据库地图导航式检索系统,用户通过输入中文、英文或中英文混合关键词,再选定信源的地域、性质、稿件篇幅、发表时间以及作者等要素,即可实现信息海洋里精准“捞针”的效果。

依据人工智能分类、定向主题词、海外信源类别、产品形态等,“天闻”系统数据库已经初步实现内部结构模块化、智能化与可视化,能较好满足用户的普遍性需求与个性化需求。

“天闻”系统数据库已经成为参考消息报社参考智库的核心生产线。正是依托该数据库,参考智库加大生产高附加值的智库产品,并获得了良好的社会效益与经济效益。截至目前,依托系统数据库,参考智库出品的常态化产品主要有《海外舆情参考日报》《全球智库动向监测周报》《“一带一路”海外智库动向月报》以及用户定制的深度研究专报、城市海外舆情报告与海外信息深度结构化数据产品等。

2021年11月与12月,参考消息报社相继发布了《中国企业海外传播力分析报告(2021)》与《中国城市海外影响力分析报告(2021)》。这两份报告正是参考智库专业团队依托“天闻”系统数据库生产而成。

“天闻”系统让参考消息报社走在了全国报业深度融合创新与技术赋能的前列。山东大学公共治理研究院副院长刘琳认为,“天闻”系统将大数据与人工智能应用于社科领域,其成熟度远高于市场同类产品,相信未来还会展现更广阔的应用空间与前景。

不进则退,研发与运营迭代升级

虽然“天闻”系统获得了不少赞誉、口碑与大奖,但并不意味着可以“躺平”。相反,该系统的运营与研发一直面临不进则退的压力。 

首先是来自技术升级的压力。“天闻”系统本身就是技术赋能的产物,在一个技术发展日新月异的时代,只有在技术上不断迭代升级,才能不被激烈的市场竞争所淘汰。目前,国内、国际大型互联网公司开发的各类人工智能翻译机器进步快速,翻译类别也从单一的文字转向音视频等,翻译内容从新闻报道等较为大众的领域,逐步走向专业化程度高的细分领域。用户提出了越来越多的需求,并有了越来越高的期待,“天闻”系统在应对市场竞争与满足用户需求上必须不断探索。有专业人士指出,在人工智能翻译领域,市场留给“天闻”系统的机会窗口不会很长。

其次是如何最大化挖掘数据库的价值。人工智能时代,掌握优质、有效、足够的大数据资源才能确保竞争力。当前,“天闻”系统最大、最具潜力的价值在于数据库。2021年,多家大型社科研究机构、国(央)企顺利与参考消息报社签约,成为“天闻”系统的用户,对方正是看中了“天闻”系统内海量的大数据资源。参考智库推出的各类简报、研报之所以深受用户赞誉,上级部门、领导机关委托参考智库承接有关课题项目等,同样是因为参考消息报社掌握这一强大的大数据资源。

目前,“天闻”系统数据库的价值开发尚处于起步阶段。如何充分利用这一独具特色的数据库资源,生产出更多高附加值产品,是当前亟须思考并积极践行的当务之急。

另外,还有来自经营与市场竞争的压力。如前所述,人工智能翻译技术发展日新月异。在此背景下,市场上同类产品的竞争力势必越来越强,不进则退。当前,“天闻”系统虽然有了较为稳定、黏性较强的用户群体,但自身造血功能尚处于起步阶段。要保持竞争力,避免陷入被动局面,“天闻”系统就要不断迭代升级,不断延伸自身产品链,不断扩大用户群体。

打造一流的智能化国际信息数据库

人工智能技术赋能国际传播以及相关信息类产品已成大势所趋。“天闻”系统虽然上线时间不长,但已经显示出了广阔的应用前景。下一阶段,“天闻”系统拟在三个方面发力:

持续升级“译神”人工智能翻译机器。目前,“天闻”系统内嵌的“译神”人工智能翻译机器只能完成英文译中文的工作。基于人工智能翻译的重要性以及越来越旺盛的市场需求,今年将扩充法文译中文、西班牙文译中文两条新的人工智能翻译生产线,并着手规划、调研日文译中文、德文译中文两条人工智能翻译生产线。在扩充人工智能翻译语种的同时,还要延伸翻译内容的专业领域,实现文字与音视频的跨形态翻译。

优化“天闻”系统数据库。智能化、模块化与可视化将成为“天闻”系统升级的方向。当前,“天闻”系统已经实现了抓取稿件的智能翻译、智能分类、智能摘要撰写、智能查重以及智能上传、排版等工作,“天闻”系统还要以模块化方式,推出大数据语义分析、大数据可视化分析以及简报专报自动生成等智能化的产品与服务。另外,数据库还将在视频领域有所突破,加大视频产品的研发力度,以满足用户的多元需求。

运营团队向大数据编辑中心升级。随着系统智能化程度不断提升,运营团队的工作内容与角色势必将发生变化。当前,系统运营团队很大程度上仍然是一个传统的网站编辑部,传统定位难以满足下一阶段的工作需求。随着传播技术、叙事方式以及用户需求的发展变化,跨时空、多维度、聚合式大数据产品将成为“天闻”系统内的重要产品形态之一,“天闻”系统运营团队今后的工作对象很大一部分是数据。

在信息与数据主导的时代,一方面是信息与数据的“大爆炸”,另一方面是虚假信息、无效信息、泡沫信息泛滥,呈现异常复杂的信息形势。在一个决策高度依赖信息的时代,可靠、有效、高附加值的信息产品是政府机关、新闻机构、科研单位以及企业等开展业务的必需品。“天闻”系统的目标就是在一个复杂的信息世界构建一个可靠、高效、良性的国际信息与大数据内容生态,最终发展成为一流水准的智能化国际信息数据库平台。

作者系参考消息报社“天闻”系统负责人。原文刊发于微信公众号“新闻战线”(ID:rmrbnewsfront)

往期回顾

➣  美年度情报报告渲染“中俄威胁”

➣  欧洲学者谈对俄技术出口管制的中国因素

➣  西方国家难以应对俄乌冲突“次级效应”

➣  韩国新总统的外交政策怎么定?海外智库这样看——

➣  又一月,这些中国企业成外媒关注焦点

➣  乌克兰危机暴露北约弱点,美智库开出“待办事项清单”

➣  乌克兰危机凸显欧洲种族主义偏见

➣  拜登政府首份“印太战略”报告紧盯中国

➣  北京冬奥会塑造中国形象的实践与启示


最新国际动向最全海外信息
请联系我们


电话:

(010)88051911


邮箱:

zhiku@cankaoxiaoxi.com


编辑 | 闫齐

审校 | 聂新宇

监制 | 陈向阳

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存